# -*- coding: utf-8 -*-
# @Time        :2024/10/31 下午5:42
# @Author      :文刀水寿
# @File        : 04_数据计算_distinct.py
"""
 @Description :对RDD数据进行去重，返回新RDD
 使用语法：
 rdd.distinct()
 无需传参
"""
from pyspark import SparkConf, SparkContext
import os

os.environ['PYSPARK_PYTHON'] = "D:/Python/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)

# 准备一个RDD
rdd = sc.parallelize([1, 2, 2, 3, 3, 3, 3, 4, 5, 6, 6, 6, 7, 8])

# 对RDD的数据进行去重
rdd2 = rdd.distinct()
print(rdd2.collect())
